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摘 要 : 基于 网 络 结构 的 推荐 算法 存在 多 样 性 不 足 的 问题 ， 为 此 提出 了 一 种 二 部 图 多 权重 投影 的 大 数据 推荐 算法 。 
首先 ， 提 取出 数据 集 的 基础 信息 ， 将 所 有 的 项 目 一 用 户 数据 输入 莱 文 斯 坦 距 离 程序 ， 计 算 各 个 属性 之 间 的 相似 性 ; 
然后 ， 计 算 二 部 图 网 络 中 节点 之 间 相 同 邻 居 的 数量 、 节 点 之 间 的 共同 邻居 度 以 及 每 个 节点 的 度 ， 计 算 二 部 图 网 络 中 
每 条 边 的 三 重 权重 ; 最 后 ， 采 用 增强 的 二 部 图 投影 技术 提取 二 部 图 网 络 的 潜在 链接 ， 实 现 基于 相似 性 的 链接 预测 。 
采用 大 数据 集 与 小 数据 集 分 别 完 成 了 实验 ， 结 果 显 示 该 算法 的 准确 率 与 覆盖 率 均 优 于 其 他 几 种 类 型 的 推荐 算法 ， 并 
且 优 于 同类 型 的 推荐 算法 。 

关键 词 ， 推荐 系统 ; 大 数据 技术 ; 二 部 图 网 络 ; 链接 预测 ; 网 络 投影 ; 单 模 网 络 

中 图 分 类 号 : TP391 doi: 10.3969/j.issn.1001-3695.2018.07.0612 


Recommendation system of big data based on multi-weight projection of bipartite network 


Gao Wei!, He Keqi? 
(1. School of Information Management, Minnan Institute of Technology, Shishi Fujian 362700, China; 2. Institute of Big 
Data & Computer, Sun Yat-sen University, Guangzhou 510275, China) 


Abstract: Most recommendation systems based on the network structure suffer from lack of diversity, so that a 
recommendation system of big data based on multi-weight projection of bipartite network is proposed. Firstly, the basic 
information of datasets is abstracted, items-users lists are applied as an input to Levenshtein Distance algorithm to compute 
similarity of each property; then, the number of common neighbors of the nodes in the bipartite network, the degree of 
common neighbors of the nodes in the bipartite network and degree of each node in bipartite network are all computed, 
triple weights of each side of the bipartite network are computed; lastly, the enhanced bipartite projection technique is 
adopted to abstract the potential links of the bipartite network to realize the link prediction based on similarity. The 
experiments based on both of big dataset and small dataset are realized, the results show that the proposed algorithm 
outperforms different kinds of recommendation systems in terms of accuracy and coverage of recommendation, at the same 
time, it outperforms the other recommendation system based on network structure. 
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统 的 推荐 准确 率 与 推荐 覆盖 率 两 个 重要 指标 ， 但 组 合 推荐 算 
法 的 计算 效率 较 低 ， 对 于 大 数据 的 推送 实时 性 不 足 外 。 基 于 


0 引言 


互联 网 的 普及 使 得 网 络 中 的 数据 量 急 剧 增长 ， 许 多 大 型 ” 网 络 结构 的 推荐 算法 是 近期 受到 关注 的 一 类 方案 ， 该 方案 不 
网 站 日 均 访 问 量 巨大 ， 包含 大 量 的 项 目 信 息 ， 如 京东 商 。 仪 获得 了 较 好 的 推荐 准确 率 ， 而 且 也 实现 了 较 高 的 计算 效率 
城中 、 淘 宝 网 中、 豆 斩 网 中 、 知 网 、 网 易 云 音乐 等 。 大 量 的 元 10。 
余 信息 极 大 地 降低 了 用 户 的 检索 效率 ， 不 仅 影响 了 用 户 的 满 许多 现实 问题 可 建 模 为 一 个 网 络 结 构 ， 网 络 的 节点 表示 


意 度 ， 也 为 门户 网 站 带 来 了 巨大 的 负担 。 个 性 化 推荐 系统 是 。 问题 的 各 个 实体 ， 网 络 的 边 表 示 实 体 之 间 的 关系 。 二 部 图 网 
解决 上 述 问 题 的 一 个 重要 方案 出， 根据 用 户 的 购买 记录 、 评 ” 络 可 描述 复杂 且 规 模 庞大 的 问题 00， 包 括 社交 网 络 、 电 子 商 
论 信息 以 及 评分 信息 为 用 户 推送 合适 的 项 目 ， 降 低 用 户 的 访 务 、 生 物 信 息 领域 等 。 目 前 二 部 图 网 络 已 在 推荐 系统 问题 上 


问 时 间 ， 模 拟 销 售 人 员 的 推荐 效果 。 取得 了 一 定 的 成 效 ， 主 要 通过 二 部 图 建 模 项 目 与 用 户 群 体 ， 
当前 主流 的 推荐 系统 主要 分 为 协同 过 滤 推 荐 算法 、 基 于 然后 将 项 目 与 用 户 之 间 的 关系 建 模 为 链接 ， 通 过 已 有 的 链接 
内 容 的 推荐 算法 、 组 合 推荐 算法 、 基 于 网 络 结构 的 推荐 算法 预测 网 络 的 潜在 链接 ， 这 些 潜在 链接 即 为 用 户 可 能 偏爱 的 项 
四 类 .99。 协 同 过 滤 推 荐 算法 易于 实现 ， 使 用 最 为 广泛 "I, Æ ” 目 。 大 多 数 基 于 二 部 图 网 络 的 推荐 算法 将 流行 的 项 目 推送 给 
于 内 容 的 推荐 算法 根据 用 户 过 去 的 喜好 推荐 类 似 的 项 目 加 。 用 户 ， 为 用 户 推荐 冷门 项 目的 数量 则 明显 不 足 ， 对 推荐 的 多 
这 两 种 算法 易于 实现 ， 也 可 以 获得 较 高 的 推荐 准确 率 ， 但 是 。 样 性 具有 不 利 的 影响 02。 引 起 推荐 多 样 性 不 足 的 主要 原因 在 
在 多 样 性 方面 略 有 不 足 ， 并 且 受 到 冷 启 动 问题 的 限制 。 组 合 。 于 ， 在 实际 数据 集 建 模 网 络 的 过 程 中 ,仅仅 考虑 了 数据 集 内 
推荐 算法 则 一 般 结 合 两 个 互补 的 推荐 算法 ， 同 时 提高 推荐 系 ”的 强 关 系 ， 忽 略 了 弱 关系 和 隐藏 信息 ， 虽 然 该 机 制 提 高 了 算 
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法 的 处 理 效 率 ， 但 是 牺牲 了 算法 的 多 样 性 。 

为 了 解决 上 述 问 题 ， 通 过 投影 将 二 部 图 网 络 转换 为 单 模 
网 络 ， 采 用 增强 的 加 权 单 模 投影 网 络 保留 骨干 网 络 ， 过 滤 原 
数据 集 的 元 余 信息 ， 同 时 保留 网 络 的 强 、 弱 关系 信息 。 在 过 
滤 见 余 信息 的 过 程 中 ， 降 低 了 投影 网 络 的 信息 量 ， 从 而 提高 
a a 
共同 邻居 度 以 及 节点 的 度 三 重 关 系 ， 保 留 了 原 数 据 集 的 强 关 
e. 


1 ”预测 二 部 图 网 络 的 链接 


基于 二 部 图 多 权重 投影 的 大 数据 推荐 算法 


其 空间 维度 


络 的 [投影 网 络 Gu=(U, Eu)» 
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二 部 图 网 
VERE G=(U, Ev). Ii 


3yu(G)em. |U(G)en. |E(G)em Xn. 


个 E, 与 —J Ey 边 进行 加 权 处 型 E 
E, — ((u;,u;)]u;.u; €U |3v; eV. 


加 权 函 数 W 定义 如 下 : 
v; e (wu) (u;)} 
W : (uu) DC Qu) D (u5)] 


E, - ((vi.v;)|v.v; €V.[3u; eV, u e r(v)Qr(v;)hs 


H. rH 


: W(ui, 


BEEE, Wi, uE X73 LG) D TOH ISI AT 8r 33 
丸 为 从 实际 数据 构建 网 络 ,网 络 中 包含 大 量 的 见 余 信息 


W (nv) EP GR (vj) 6) 
ARR i 节点 与 j 节点 的 重要 性 。 对 于 U- 
点 的 数量 。 


dr ~ 


二 部 图 可 表示 一 个 网 络 ， 其 节点 分 为 两 个 不 相交 集 
合 , 设 为 UU 与 V, 一 个 UU 节点 与 一 个 V 节 点 之 间 存 在 一 
接 。 一 个 二 部 图 网 络 定义 为 G=(U, V, E), U 5 V 是 两 个 不 相 
交 节点 集 , E 是 二 部 图 网 络 GURE, LUNE G 中 节 
点 上 的 邻居 节点 集 , L(V) 是 网 络 G 中 节点 V 的 邻居 节点 集 。 
在 二 部 图 网 络 中 ， 同 一 个 节点 集 内 的 节点 没有 链接 。 
定义 1 二 部 图 网 络 。 二 部 图 网 络 表示 为 一 个 三 元 组 形 
X OU VA): 其 中 UU 与 V 是 G 的 两 个 节点 集 ，EclVIxV| 是 
。 相 同 节点 集 内 的 节点 之 间 没 有 连接 。 
将 二 部 图 网 络 表示 为 [Ulx|V| 的 箱 阵 形式 ，U 中 共有 n 
WA, VERA m 个 节点 ， 网 络 G 可 表示 为 mxn 维 的 邻接 


和 矩阵。 二 部 图 网 络 G 的 矩阵 元 素 hi 与 对 角 和 矩阵 A 分 别 定义 
为 
We Tow, A 
^ -lo str m er] (D 


其 中 : Onn 与 Omen 分别 为 nxn 与 mxn B 2E ABE: Anm 为 非 
零 矩阵 。 所 以 邻接 矩阵 具有 对 称 性 ， 使 用 4wm 和 矩阵 表示 二 部 
图 网 络 G, U 集合 的 每 行 与 每 列表 示 V 集合 的 一 个 节点 。 
二 部 图 网 络 链 接 预 测 问 题 的 目标 是 寻找 网 络 当 前 不 存在 
但 未 来 会 出 现 的 链接 。 假设 G=(U,V,E) 是 时 间 1 的 二 部 图 , 链 
安 预 测 任 务 是 预测 时 间 t+1 二 部 图 网 络 中 的 新 链接 。 

将 二 部 图 转换 为 单 模 网 络 是 分 析 二 部 图 网 络 广 泛 使 用 的 
一 个 方案 。 投 影 技术 是 将 二 部 图 网 络 转换 为 单 模 网 络 的 有 效 
技术 ， 投 影 后 的 网 络 是 典型 的 单 模 网 络 结构 。 为 了 预测 网 络 
的 潜在 链接 ， 首 先 将 二 部 图 网 络 转换 为 投影 网 络 。 投 影 网 络 
如 下 定义 : 
定义 2 投影 网 络 。G=(U,V,B) 是 一 个 二 部 图 网 络 ， H 
U(G)[m, |WG)n. |E(G)|-mXn 维 。 二 部 图 网 络 两 个 节点 
集 U 与 V 分 别 转 换 为 两 个 投影 网 络 ,获得 U- 投 影 网 络 Gu=(U， 
i) 与 V- 投 影 网 络 Gv=(U, Ej). 


E, - ((u..u;)|u.u; &U.|3v; EV, v; eT (u)NT(u,)}, 


E, - ((vi.v;)|v.v; €V.[3u; eU, u; e (v) (vj)) (2) 


根据 定义 2，uwvewj 节点 是 二 部 图 网 络 中 UU 集合 的 元 素 。 
如 果 二 部 图 网 络 中 Y 节点 有 一 个 以 上 的 邻居 节点 ， 那 么 U- 
投影 网 络 (Go 中 节点 wi 与 ww 之 间 存 在 一 个 链接 。 与 之 相似 ， 
G 的 六 投影 网 络 定义 为 Gv=(U, Ev). 
二 部 图 网 络 转换 为 单 模 网 络 之 后 ， 原 网 络 的 拓扑 结构 信 
息 可 能 丢失 。 为 了 解决 该 问题 ， 设 计 了 加 权 的 二 部 图 网 络 。 


权 单 模 网 络 转换 为 增强 的 单 模 网 络 ， 增 强 的 单 模 网 络 如 下 定 


义 : 
定义 4 


这 些 元 余 信息 对 潜在 链接 的 预测 具有 不 利 的 影响 ， 所 以 首 儿 
条 链 ”需要 过 滤 数 据 集 的 元 余 链接 ， 可 有 效 地 降低 网 络 的 复杂 度 ， 
并 且 提 高 链接 的 预测 质量 。 本 文 设计 了 骨干 网 提取 算法 将 加 


增强 的 二 部 图 投影 。U 


V 两 个 节点 集 和 链接 


E 组 成 了 二 部 图 网 络 G=(U,V,E)， 从 二 部 图 网 络 G 获得 两 个 


i> w 


投影 网 络 Gu=(U，Ei) 与 G=(U, E). WR A 5 B 边 的 权重 
W(4,B)>a， 那 么 (4,B) 边 划分 为 增强 网 络 SBP"; 
31g T JUAR fei DAE) 


2 ”本 方案 


BZ, (A,B) 
过 滤 这 些 边 。 


的 主要 内 容 


本 文 从 大 规模 实际 数据 集 构建 了 复杂 的 二 部 图 网 络 ， 设 


计 了 二 部 图 网 络 的 链接 预测 方案 ， 图 1 所 示 是 本 方案 的 流程 
框图 ,其 中 包括 了 基本 信息 提取 方案 , 男 一 个 关键 工作 是 根据 
当前 的 二 部 图 网 络 预 测 网 络 的 潜在 链接 。 项 目 信 息 、 用 户 、 
用 户 评价 等 数据 组 成 了 二 部 图 网 络 ， 本 文 的 关键 工作 是 从 二 
0 0 INE 
(n 
Mii 
为 二 部 图 补 
EL 
WA. RR 。 | 建立 一 部 图 | 测试 部 图 ,本 算法 预测 
网 络 拓扑 网 络 拓扑 网 络 拓扑 的 结果 
Y EN [I 
-部 图 网 络 pS 
的 加 权 投影 LETTURE 
i ; NL | 法 | Nu 链接 > 评估 指标 
项 目 one- 户 one- E 
mode SBP | 


|| mode SBP 


2.1 提取 基础 信息 
图 2 所 示 是 基础 信 


J1 本 方案 的 流程 框图 
Fig. 1 Block diagram of proposed schema 


息 的 提取 流程 框图 ， 提 取 了 项 目的 详 


细 信 息 与 用 


并 且 保 持 用 
项 目标 签 ， 


加 权 二 部 图 网 络 可 以 表示 网 络 的 拓扑 属性 ， 如 项 目 一 用 户 推 
荐 关系 、 作 者 一 文献 关系 、 病 人 一 病情 关系 等 。 加 权 的 单 模 
网 络 投影 技术 从 一 个 二 维 网 络 获得 加 权 的 单 模 网 络 ， 其 中 边 
的 权重 表示 节点 的 共同 邻居 数量 。 使 用 一 个 加 权 单 模 投 影 获 
得 的 网 络 称 为 加 权 投 影 网 络 ， 其 数学 模型 定义 为 : 

定义 3 ”加 权 投 影 网 络 。G=(U,V, 刀 是 一 个 二 部 图 网 络 ， 


的 标 


i 
距离 算法 (levenshtein distance algorithm, LDA), 
估 两 个 词汇 之 间 的 相似 性 。 首 先 ， i 
项 目的 名 称 列表 , 为 选择 同一 个 项 目 名 称 的 用 户 建 立 关 联 性 ， 


将 所 有 的 项 
这 两 个 列表 输入 LDA 算法 重新 计算 ， 最 后 ， 将 标签 列表 内 
签 标准 化 处 理 ， 


将 所 有 的 项 户 数据 输入 莱 文 斯 坦 


LDA 算法 评 


P fee 


4r ed 


"BH ID 信息 与 日 其 


盲 息 ; 然后 ， 合 并 数据 集 的 
标签 与 用 户 分 别 建立 新 的 列表 ， 将 


根据 标准 化 的 标签 更 新 项 目 


] 户 链接 


盲 息 ,例如 电影 项 目的 名 称 为 “ 卧 虎 藏 龙 ”标签 为 “动作 片 ”， 


将 网 络 中 电影 项 目的 标签 统一 标准 化 处 理 。 
2.2 链接 预测 算法 


采用 增 


采用 增强 的 二 部 图 投影 技术 提取 二 部 图 网 络 的 潜在 链 
接 ， 实 现 基 于 相似 性 


的 链接 预测 。 首 先 ， 使 用 挖掘 技术 从 大 
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数据 集中 提取 二 部 图 网 络 (如 定义 1), oJ 节 的 方案 提取 


12.1 


数据 集 的 相关 信息 ; 然后 ， 二 部 图 网 络 转换 为 加 权 的 单 模 网 
络 ( 如 定义 3)， 将 单 模 网 络 转换 为 投影 网 络 的 骨干 网 络 
SBP( 如 定义 4). 
/ 电 SUR / / 相似 电影 名 
上 i LDA 称 的 分 布 情 
z 况 
B / 
P. / / ^ 
D、 评 价 时 Ru E 
H nA y ES 2 数据 库 的 每 部 电影 
/ a \ V 重复 该 过 程 
电影 标签 的 LDA 
图 2 基础 信息 的 提取 流程 框图 


Fig.2 Block diagram of basic information abstraction 
在 SBP" 单 模 网 络 中 ,检测 具有 内 部 节点 对 属性 的 节点 
对 ， 预 测 网 络 的 潜在 链接 。 该 方案 降低 了 预测 的 链接 数量 ， 


同时 提高 了 预测 的 质量 。 如果 二 部 图 网 络 G 中 两 个 子 节点 之 
间 存 在 交互 ， 那 么 这 两 个 子 节点 可 能 存在 潜在 链接 ， 如 果 两 
个 子 节点 没有 共同 的 邻居 节点 ， 那 么 这 两 个 子 节点 存在 潜在 
链接 的 概率 较 低 。 

定义 5 潜在 链接 (potential links, PL)。 假 设 G=(U,V,E) 


是 一 个 二 部 图 网 络 ， 
Gr =(U,E?) 是 V- 投 影 单 模 网 络 ， 
AcU 是 U 投影 网 络 Ge -(U.Ez) 的 节点 ， 那 么 节 
潜在 链接 的 概率 : 

PLa={ K\(Ta)wain} | K2I (fa) U T(k2),..., U FP (ka) IR Girain 
网 络 中 一 个 节点 Tx 的 邻居 ， 节 点 A 属于 投影 网 络 GS, IQ) 
表示 节点 三 在 二 部 图 G 中 的 邻居 节点 。 如 果 满 足 式 (1)， 则 
PL,-ippeK^pe£D(Ap) , PL-(PL, UP UP 表示 预测 的 
潜在 链接 。 

存在 潜在 链接 的 节点 应 当 满 足 


Gr=(U,E?) 是 U- 投 影 单 模 网 络 ， 
式 中 a 表示 单 模 网 络 。 假 设 
节点 4 具有 一 个 


T, COT (G2 +Ø JF H. p, eT (A) (4) 

其 中 : Ø 表示 空 集 ACU 5 pi€ V 表示 两 个 节点 ， (4， 
p)£E. 

定义 6 潜在 链接 的 覆盖 模式 。 假设 Grain 为 二 部 图 训练 


Wig. Gr 为 U- 投 影 单 模 网 络 。 每 个 Celu) irain O TDAI 
在 链接 是 PL( 潜 在 链接 ) 覆 盖 的 模式 。PL( 潜 在 链接 ) 覆 盖 的 模 
式 数 量 越 多 , 那么 潜在 链接 变 为 真实 链接 的 概率 越 高 。 因此 ， 
PL 覆盖 的 模式 数量 越 多 可 用 Mu sod ede 
例如 图 3(a) 所 示 的 二 部 图 网 络 中 ， 圆 形 节点 表示 用 户 ， 
方形 节点 表示 用 户 观 看 的 电影 。72、 nE j 户 B 与 共同 观 
看 的 电影 ，(E,T1) 与 (2,T) 是 满足 定义 5 条 件 的 潜在 链接 。 这 
两 个 PL 覆盖 的 模式 数量 不 同 ，(E,7TD 链 接 履 盖 的 模式 为 
{E.A}, {E,B}; (E,Ts) BE R7 mi AJRIN A {EA}, {EB} {E,C} 
(E,T3) 潜 在 链接 的 概率 高 于 (E,71) 潜 在 链接 。 

定义 7 改进 的 模式 权重 。PL 覆盖 的 模式 数量 越 多 ， 网 
络 中 PL 覆盖 的 每 个 链接 权重 则 越 重要 器。 计算 {4, B} 的 模式 
权重 ， 需 要 考虑 三 个 基本 因素 : 

a) 二 部 图 网 络 中 A、B 节点 共同 的 邻居 数量 。 

潜在 链接 覆盖 的 模式 等 于 投影 网 络 的 边 。 二 部 图 网 络 G 
中 边 4 与 有 相同 的 邻居 节点 ， 表 示 为 投影 网 络 G4 的 (4,B) 
边 。 图 4(a) 与 (0) 是 两 个 不 同 的 二 部 图 网 络 ， 但 它们 的 投影 网 


mi 


| 
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存在 差异 ， 


息 的 保护 。 


此 可 实现 对 二 部 图 网 络 拓扑 信 


(AJ(s)(c 


X 


NM oy 


p)(EYAJ)(B)(c)(pn)(s^ 


T4 T T T3 T4 


人) 用 户 一 电 


(a) Bipartite graph network 


of user-movie 


Eb 
m2 


二 部 图 网 络 (b) 用 户 


电影 二 部 图 训练 网 络 
(b) Bipartite graph training 


network of user-movie, 


Ti ||T2|| Ts || T4 
(c) 用 户 一 电影 二 部 图 测试 网 络 


(c)Bipartite graph testing network of user-movie 


图 3 潜在 链接 覆盖 模式 的 实例 


Fig.3 Case of potential linkage coverage model 


P" 


DIO 
P | , N PM " 
m -部 图 网 络 (b) 图 (a) 的 投影 网 络 
(a)First bipartite graph network (b)Projected network of 
figure(a) 
owas 
EET (d) 图 (c) 的 投影 网 络 


(c) Second bipartite 
graph network 


(d) Projected network of 
figure(c) 


图 4 两 个 不 同 的 二 部 图 网 络 以 及 加 权 投 影 网 络 


Fig.4 Two different bipartite graph networks and weighted projected 


b) 二 部 图 网 络 中 节点 4 5s B RS 


network 


k ERRE BE o 


部 图 网 络 中 共同 邻居 的 度 也 是 重要 的 隐藏 信息 。 如 果 


二 部 图 网 络 中 两 个 节点 共同 邻居 的 度 增 加 ， 那 么 两 个 节点 的 


相似 性 也 
看 的 


n 


的 共同 邻居 度 分 别 为 2 5 4. 节 
那么 两 者 的 相似 性 越 高 ， 模 式 的 权重 


c) 二 部 图 
A 与 B 
响 。 例 如 ; 


8C Ti 5 T» 


络 相 同 ， 如 图 4b)(d) 所 示 。 这 种 情况 下 ， 投 影 网 络 丢失 了 二 
部 图 网 络 的 拓扑 信息 ， 通 过 采用 加 权 的 二 部 图 网 络 可 维护 网 
络 的 拓扑 信息 ,图 4(a) 的 邻居 数量 小 于 (b), 所 以 (4, B) 边 的 值 


P 


了 不 同 的 电影 ， rendo mE AE To, B| 5(b) 中 


r4 


BEA, (b) A. B. C. D 用 户 观 看 


网 


节点 的 度 对 于 {4,B} 边 的 模式 权重 有 具 
图 5(a) 中 节点 4 5s B 的 度 分 别 为 2 与 1，(b) 中 节 
点 4 与 B 的 度 分 别 为 2 与 3。 5(a) 中 ， 妆 


是 高 。 例 如 图 5(a) 中 To EE A. B 用 户 的 共同 观 


了 电影 To, (a)fli(b) 
点 的 共同 邻居 度 越 小 ， 
也 越 高 。 
络 中 节点 4 与 B 的 度 。 


两 个 


定 的 影 


， 当 用 户 4 观看 电 
2。 而 在 图 5(b) A. B 观看 


B 仅 观 看 uA 


相似 性 低 于 图 5(a)，A 5 B 权重 也 应 当 高 于 图 5(a) 。 
假设 Gu=(U, Ei) 是 从 二 部 图 网 络 G-(U, V, 如 获得 的 投影 
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单 模 加 权 网 络 ，(4,，B)e 玉 是 网 络 Gs 内 的 一 
的 权重 wA, 下 计算 为 


w(A,B)- 


条 边 。{4,B} 模 式 


1 
Kk, Kg uerius G5) 
其 中 : Ka. ke. kA ERA. B. C 在 二 部 图 网 络 G 中 的 
度 ; T(4)、7T(B) 分 别 为 二 部 图 网 络 中 A 与 B 节 点 的 邻居 集合 。 
从 式 (5) 可 看 出 ，A、B 节点 的 共同 邻居 度 越 小 ， 模 式 的 
权重 越 大 。PL 覆盖 的 每 个 模式 元 素 概率 等 价 于 PL 覆盖 的 模 
RARE, (A, pi) 潜 在 链接 的 最 终 总 评分 计算 为 


Sp 2, wWpbB) (6) 


从 式 (6) 可 看 出 ， 高 权重 模式 的 潜在 链接 越 多 ， 则 链接 预 
测 的 概率 越 高 。 因 此 ， 潜 在 链接 尾 盖 的 模式 权重 之 和 即 为 潜 
在 链接 预测 的 最 终 值 。 


N / N 区 N / E? 


ON evo A - ^ es 
BN NI X 
(nn AHB T, | 


(b) 8 个 节点 的 - -部 图 网 络 
(b) Bipartite graph network 


(a) 4 个 节点 的 二 部 图 网 络 
(a)Bipartite graph network 


of 8 nodes 
图 5 两 个 不 同 的 二 部 图 网 络 
Fig.5 Two different bipartite graph networks 
2.3 算法 的 具体 实现 
采用 文献 [1 和 1 的 二 部 图 网 络 的 内 部 链接 定义 ， 基 于 该 定 
义 设计 了 本 文 的 链接 预测 方案 ， 算 法 1 所 示 是 基于 二 部 图 网 
络 链接 预测 的 推荐 算法 伪 代 码 。 文 献 [13] 基 于 内 部 链接 定义 
了 候选 节点 对 ， 基 于 此 概念 提出 一 个 链接 预测 方案 ， 该 算法 


of 4 nodes 
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录用 定稿 高 A, F: 基于 二 二 数据 推荐 算 > by 


Er = Er U{(A4,B)}; 
end if 


IRTEE 4 建立 投影 */ 


end for 
end for 
尾 模 块 3: 根据 定义 5 构建 PL 集合 */ 
foreach WA Ain Gr — /* Gr 是 强化 的 投影 网 络 */ 
for each A 的 邻居 节点 PR A 的 每 个 邻居 节点 */ 
foreach 与 天 连接 的 节点 六。 POR K 直接 连接 的 节点 * 
if (A, p)€ Ew then 
PLa=PLAU (A, p); PH PL4 边 的 权重 
end if 


累积 起 来 */ 


end for 
end for 
PL-PLU PLA 
end for 
PA. 计算 PL 集合 每 个 元 素 的 最 终 评分 */ 
for each 节点 对 (4,p) in PL 


foreach 节点 C(C e(TUA)) an NT) 人 # 遍 历 每 个 节点 并 


根据 式 (2) 计 算 节 点 对 (4, p) 的 权重 ; 
S(A, p)- S(A, pw(A, C);  * 即 式 (3)*/ 


end for 


end for 


3 ”实验 与 结果 分 析 


为 了 评估 基于 二 部 图 网 络 链接 预测 的 推荐 算法 性 能 ， 完 
成 了 多 组 实验 ， 通 过 推荐 准确 率 与 推荐 覆盖 率 两 个 指标 评估 
推荐 算法 的 性 能 。 实 验 环 境 为 PC 机 : Intel Core i7 处 理 器 ， 
Windows 10 操作 系统 ，12 GB 内 存 。 

3.1 实验 数据 集 
实验 采用 FilmTrust 与 Epinions 两 个 数据 集 ， 表 1 所 示 


对 大 规模 网 络 的 效率 较 低 。 本 文 则 提出 了 适合 大 规模 二 部 图 
网 络 的 链接 预测 方案 。 

本 文 从 原 数 据 集 获得 了 包含 弱 关 系 的 投影 单 模 网 络 ， 该 
网 络 过 滤 了 元 余 的 信息 ， 提 取 了 骨干 网 络 。 根 据 预定 义 的 立 
值 创建 一 个 增强 的 骨干 网 络 ， 在 初始 化 的 单 模 投影 网 络 中 
根据 高 频率 边 权 重 决定 该 闪 值 。 该 方案 有 效 地 缩小 了 洪 在 链 
楼 的 集合 ， 降 低 了 算法 的 总 体 计 算 时 间 ， 同 时 也 维护 了 网 络 
中 强 关 系 的 节点 。 
算法 1 基于 二 部 图 网 络 链接 预测 的 推荐 算法 
输入 : 二 部 图 网 络 G(U, V, E)， 训 练 二 部 图 网 络 Girain(U, V, Erain)» 
BE ao 
输出 : 潜在 链接 集合 PL，PL 中 各 元 素 的 最 终 评分 。 
必 模 块 1: 根据 定义 3 构建 加 权 的 投影 网 络 Gu*/ 
for each node A in U 
foreach xinI(A) /*I(AYXz A 的 邻居 节点 */ 

foreach B in T(x) ATOR x 的 邻居 节点 */ 

W: (A, B)—|[(A) A T(GDV/*3E E A Ej B 的 共同 邻居 度 */ 
E,-E,U (A, B)) 


end for 


end for 
end for 
作 模 块 2: 根据 定义 4 构建 强化 的 投影 网 络 Gr */ 
for each A in G, 
foreach Bin (A) — /*xX*fh B Jg A 的 领 
if W(A, B) > a then 


届 节 点 */ 


是 两 个 数据 集 的 基本 介绍 。FilmTrust 是 从 FilmTrust 网 站 采 
集 的 小 数据 集 051， 该 数据 集 共 包含 35 497 个 评分 ，1 642 个 
用 户 ，2 071 部 电影 。 评 分 范围 为 0.5,1.0,1.5,.….,4.0， 同 时 包 
含 了 1 853 条 用 户 评论 。 第 二 个 数据 集 是 Epinions 大 数据 集 ， 
该 数据 集 由 Paolo Massa 从 Epinions.com 网 站 收集 ， 该 数据 
集 的 评分 范围 为 1,2,3,4,5， 该 数据 集 包 含 49 290 个 用 户 ， 
139 728 个 项 目 ， 实 验 从 Epinions 数据 集中 随机 选择 了 5 000 
个 用 户 与 10 000 个 项 目 作为 实验 数据 集 。 
表 1 FilmTrust 与 Epinions 两 个 数据 集 的 基本 信息 
Table 1 


[in 


Basic information of FilmTrust and Epinions datasets 


数据 集 FilmTrust Epinions 

户 数量 1 508 5 000 
项 目 数 量 2 071 10 000 
评分 数量 35 500 71 100 
评分 粒度 0.5 1 
评分 范 [0.5, 4] [1, 5] 
评论 数量 1 853 20 500 

3.2 性 能 评价 指标 


采用 平均 绝对 误差 (mean absolute deviation，MAE) 指 标 


评估 本 方案 的 推荐 准确 率 ,对 于 一 个 包含 NN 个 评分 的 数据 集 ， 
MAE 的 计算 方案 为 


N 
MAE = | ad (7) 


其 中 : 1 为 目标 项 目 i 的 预测 评分 ; ri 是 i 的 实际 评分 。MAE 
值 越 低 ， 推 荐 准确 率 越 高 。 履 盖 率 是 评估 推荐 系统 性 能 的 另 


录用 定稿 高 AL F: 基于 二 部 图 多 权重 投影 的 大 数据 推荐 算法 
一 个 重要 指标 ， 计 算式 为 络 多 视角 分 

RC-MIJO| (8 | MV)P!l, 
其 中 : M 表示 预测 评分 的 数量 ; |Q| 表 示 数 据 集 内 的 评分 总 数 3.3.1 正常 状态 的 推荐 实验 


。RC 值 越 高 表示 推荐 系统 的 覆盖 性 能 越 好 。F1 指标 评 
荐 系统 的 总 体 性 能 


估 图 6 所 示 是 Epinions 数 1 


分 别 是 六 种 推荐 算法 的 MAE、 
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区 的 推荐 算法 (multiview bipartite network ， 


E 荐 性 能 结果 。 图 6(a)~(c) 
与 Fl 指标 结果 。 从 结果 


pi 2X precisionx RC (9) 可 看 出 ， 本 算法 对 于 大 规模 数据 集 的 推荐 准确 率 与 覆盖 率 均 

Precision+ RC 优 于 其 他 类 型 的 推荐 算法 ， 并 且 也 优 于 另 一 种 基于 二 部 图 的 

其 中 : 精度 precision 定义 为 推荐 算法 RTCF。 基 于 二 部 图 的 推荐 算法 在 覆盖 率 上 表现 出 

precisionz1-MAE/(rmax-rmin) (10) 一 定 的 优势 ， 主 要 在 于 RTCF 与 本 算法 均 建 立 了 较为 全 面 的 

H LHP: : Fmax 5 Fmin 分 别 表 示 Ed 系统 内 最 高 评分 值 与 最 低 评分 二 部 图 , 保留 J 数据 集 的 诸多 信息 mz) 而 CF, MT, TCF, Merge 

值 ， 分 别 为 1 与 0。 四 种 算法 在 预 处 理 的 阶段 ， 为 了 提高 计算 效率 ， 过 滤 了 数据 
3.3 GPL TE 息 。 

本 算法 是 一 种 基于 二 部 图 网 络 的 推荐 算法 ， 选 择 其 他 不 图 7 所 示 是 FilmTrust 数 据 集 的 推荐 性 能 结果 .图 7(a)~(c) 
同类 型 的 推荐 算法 与 本 算法 比较 ， 包 括 协同 过 滤 推 荐 算法 PO Menem MAE, RC 5 Fl 指标 结果 。 从 结果 
(collaborative filtering recommender system, CF)u1、 基 于 信任 可 看 出 ， 本 算法 对 于 小 规模 数据 集 的 推荐 准确 率 与 覆盖 率 均 
的 可 靠 推荐 算法 (more trust-aware recommender system, 优 于 其 他 类 型 的 推荐 算法 ， 并 且 也 优 于 另 一 个 基于 二 部 图 的 
MT)U70、 基 于 内 容 的 推荐 算法 (term weights for content-based ”推荐 算法 MV。 综 合 两 组 实验 的 结果 ， 本 算法 对 小 数据 集 的 
filtering recommender, TCF)U8、 协 同 过 滤 与 社会 关系 的 组 合 推荐 准确 率 优 于 大 数据 集 ， 原 因 在 于 本 算法 在 提取 二 部 图 投 
推荐 算法 (merging collaborative filtering and social 影 骨 干 网 络 的 过 程 中 ， 增 加 了 和 宛 余 信息 过 滤 的 处 理 ， 该 处 理 

T. relationships，Merge)09， 此 外 还 选择 了 两 个 近期 的 基于 二 部 ”对 大 数据 集 删除 的 细节 信息 较 多 ， 影 响 了 后 期 连接 预测 的 准 
2 图 推荐 算法 与 本 算法 比较 ， 分 别 为 加 权 二 部 图 推荐 算法 (real ” 确 率 ， 导 致 对 大 数据 集 的 推荐 准确 率 降 低 ， 但 是 依然 高 于 其 
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冷 启 动 是 推荐 系统 的 一 个 关键 问题 ， 是 评价 推荐 系统 的 法， 并且 也 优 于 另 一 种 基于 二 部 图 的 推荐 算法 RTCF。 协 同 
一 个 重要 指标 。 因 此 对 冷 启 动 状态 下 的 推荐 系统 也 进行 了 实 。 过 滤 推 荐 系统 受 冷 启动 问题 的 影响 较 大 ， 其 推荐 准确 率 、 禾 
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